机器侦听中的声音事件检测(SED)需要识别音频文件中的不同声音,并识别音频中特定声音事件的开始和结束时间。 SED在多媒体数据库中发现了在各种应用中的应用,例如音频监控,语音识别和基于上下文的索引和检索数据。然而,在现实生活场景中,来自各种来源的声音很少没有任何干扰噪音或干扰。在本文中,我们在嘈杂的音频数据上测试您只听到一次(Yoho)算法的性能。由您的灵感仅仅看一次(YOLO)算法在计算机视觉中,yoho算法可以匹配数据集上各种最先进的算法的性能,如音乐语音检测数据集,TUT声音事件和城市 - SED数据集,但在较低的推理时间。在本文中,我们探讨了Yoho算法在包含不同声音噪声比(SNR)的噪声的音频文件的语音数据集的性能。 Yoho可以胜过或至少匹配语音数据集纸中的最佳性能SED算法,并在更短的时间内进行推断。
translated by 谷歌翻译
在过去的几年中,自动驾驶的感知系统在其表现方面取得了重大进步。但是,这些系统在极端天气条件下努力表现出稳健性,因为在这些条件下,传感器和相机等传感器套件中的主要传感器都会下降。为了解决此问题,摄像机雷达融合系统为所有可靠的高质量感知提供了独特的机会。相机提供丰富的语义信息,而雷达可以通过遮挡和在所有天气条件下工作。在这项工作中,我们表明,当摄像机输入降解时,最新的融合方法的性能很差,这实际上导致失去了他们设定的全天可靠性。与这些方法相反,我们提出了一种新方法RadSegnet,该方法使用了独立信息提取的新设计理念,并在所有情况下都可以在所有情况下真正实现可靠性,包括遮挡和不利天气。我们在基准ASTYX数据集上开发并验证了我们的系统,并在辐射数据集上进一步验证了这些结果。与最先进的方法相比,Radsegnet在ASTYX上提高了27%,辐射增长了41.46%,平均精度得分,并且在不利天气条件下的性能明显更好
translated by 谷歌翻译
经常引用联合学习的挑战是数据异质性的存在 - 不同客户的数据可能遵循非常不同的分布。已经提出了几种联合优化方法来应对这些挑战。在文献中,经验评估通常从随机初始化开始联合培训。但是,在联合学习的许多实际应用中,服务器可以访问培训任务的代理数据,该数据可用于在开始联合培训之前用于预训练模型。我们从经验上研究了使用四个常见联合学习基准数据集从联邦学习中的预训练模型开始的影响。毫不奇怪,从预先训练的模型开始,比从随机初始化开始时,缩短了达到目标错误率所需的训练时间,并使训练更准确的模型(最高40 \%)。令人惊讶的是,我们还发现,从预先训练的初始化开始联合培训时,数据异质性的效果不那么重要。相反,从预先训练的模型开始时,使用服务器上的自适应优化器(例如\ textsc {fedadam})始终导致最佳准确性。我们建议未来提出和评估联合优化方法的工作在开始随机和预训练的初始化时考虑性能。我们还认为,这项研究提出了几个问题,以进一步了解异质性在联合优化中的作用。
translated by 谷歌翻译
我们考虑了两种用于培训部分个性化模型的联合学习算法,共享和个人参数在设备上同时或交替更新。文献中已经提出了两种算法,但是它们的收敛性能尚未完全理解,尤其是对于交替的变体。我们提供一般非coNVEX设置中两种算法的收敛分析,并部分参与,并描述一个算法,其中一个算法是另一个算法。我们对现实世界图像,文本和语音数据集的实验表明,(a)部分个性化可以通过一小部分个人参数获得完整模型个性化的大部分好处,并且(b)交替的更新算法通常优于表现。同时更新算法,略有但一致的边距。
translated by 谷歌翻译
语音的视频录制包含相关的音频和视觉信息,为语音表示从扬声器的唇部运动和产生的声音提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HUBERT),是视听语音的自我监督的代表学习框架,这些屏幕屏蔽了多流视频输入并预测自动发现和迭代地精制多模式隐藏单元。 AV-HUBERT学习强大的视听语音表示,这些语音表示受益于唇读和自动语音识别。在最大的公众唇读基准LRS3(433小时)中,AV-Hubert达到32.5%WER,只有30个小时的标签数据,优于前一种最先进的方法(33.6%)培训,达到了一千次转录的视频数据(31k小时)。当使用来自LRS3的所有433小时的标记数据并结合自培训时,唇读WER进一步降低至26.9%。使用我们在相同的基准测试中使用您的视听表示,用于音频语音识别的相对效率为40%,而最先进的性能(1.3%Vs 2.3%)。我们的代码和模型可在https://github.com/facebookResearch/av_hubert获得
translated by 谷歌翻译
本文介绍了基于Wav2VEC 2.0的跨语言语音表示学习的大规模模型。我们在128种语言中培训最多2B个公共讲话音频的近半小时的型号的模型,比公共数据的数量级比最大的已知事先工作。我们的评估涵盖了广泛的任务,域,数据制度和语言,都是高低资源。在Covost-2语音翻译基准测试中,我们将先前的最先进的状态平均为7.4 BLEU超过21个翻译方向进入英语。对于语音识别,XLS-R在Babel,MLS,CommonVoice以及Voxpopuli上的最佳已知工作中提高,降低了相对的误差率14-34%。 XLS-R还在Voxlingua107语言识别上设置了新的技术状态。此外,我们表明,具有足够的模型规模,交叉思维预先预测可以在将英语演讲翻译成其他语言时才能优于英语撇印,这是一个有利于单晶的预借预制的设置。我们希望XLS-R可以帮助改善世界上更多语言的语音处理任务。
translated by 谷歌翻译
交叉设备联合学习(FL)是一种分布式学习范例,具有几种挑战,这些挑战将其区分离为传统的分布式学习,每个设备上的系统特征的可变性,以及数百万客户端与主要服务器协调。文献中描述的大多数FL系统是同步的 - 它们从各个客户端执行模型更新的同步聚合。缩放同步FL是挑战,因为增加了并行培训的客户数量导致训练速度的回报递减,类似于大批培训。而且,陷阱妨碍了同步流动训练。在这项工作中,我们概述了一种生产异步流行系统设计。我们的工作解决了上述问题,一些系统设计挑战及其解决方案的草图,并触及了为数百万客户建立生产流系统的原则。凭经验,我们证明异步流量在跨越近一亿台设备时比同步液更快地收敛。特别地,在高并发设置中,异步FL速度快5倍,并且具有比同步FL更小的通信开销差距。
translated by 谷歌翻译
Self-supervised approaches for speech representation learning are challenged by three unique problems: (1) there are multiple sound units in each input utterance, (2) there is no lexicon of input sound units during the pre-training phase, and (3) sound units have variable lengths with no explicit segmentation. To deal with these three problems, we propose the Hidden-Unit BERT (HuBERT) approach for self-supervised speech representation learning, which utilizes an offline clustering step to provide aligned target labels for a BERT-like prediction loss. A key ingredient of our approach is applying the prediction loss over the masked regions only, which forces the model to learn a combined acoustic and language model over the continuous inputs. HuBERT relies primarily on the consistency of the unsupervised clustering step rather than the intrinsic quality of the assigned cluster labels. Starting with a simple k-means teacher of 100 clusters, and using two iterations of clustering, the HuBERT model either matches or improves upon the state-ofthe-art wav2vec 2.0 performance on the Librispeech (960h) and Libri-light (60,000h) benchmarks with 10min, 1h, 10h, 100h, and 960h fine-tuning subsets. Using a 1B parameter model, HuBERT shows up to 19% and 13% relative WER reduction on the more challenging dev-other and test-other evaluation subsets. 1
translated by 谷歌翻译
可扩展性和隐私是交叉设备联合学习(FL)系统的两个关键问题。在这项工作中,我们确定了FL中的客户端更新的同步流动聚合不能高效地缩放到几百个并行培训之外。它导致ModelPerforce和训练速度的回报递减,Ampanysto大批量培训。另一方面,FL(即异步FL)中的客户端更新的异步聚合减轻了可扩展性问题。但是,聚合个性链子更新与安全聚合不兼容,这可能导致系统的不良隐私水平。为了解决这些问题,我们提出了一种新颖的缓冲异步聚合方法FedBuff,这是不可知的优化器的选择,并结合了同步和异步FL的最佳特性。我们经验证明FEDBuff比同步FL更有效,比异步FL效率更高3.3倍,同时兼容保留保护技术,如安全聚合和差异隐私。我们在平滑的非凸设置中提供理论融合保证。最后,我们显示在差异私有培训下,FedBuff可以在低隐私设置下占FEDAVGM并实现更高隐私设置的相同实用程序。
translated by 谷歌翻译